Confrontation des paradigmes d'utilisation des données : le spectre d'étiquetage
Le succès du déploiement des modèles d'apprentissage automatique dépend essentiellement de la disponibilité, de la qualité et du coût des données étiquetées. Dans les environnements où l'annotation humaine est coûteuse, impossible ou très spécialisée, les paradigmes standards deviennent inefficaces ou échouent complètement. Nous introduisons le spectre d'étiquetage, qui distingue trois approches fondamentales selon la manière dont elles exploitent l'information : Apprentissage supervisé (AS), Apprentissage non supervisé (ANS), et Apprentissage semi-supervisé (ASS).
1. Apprentissage supervisé (AS) : haute fidélité, coût élevé
L'AS fonctionne sur des jeux de données où chaque entrée $X$ est explicitement associée à une étiquette connue, $Y$. Bien que cette méthode atteigne généralement la meilleure précision prédictive pour les tâches de classification ou de régression, son importance sur un étiquetage dense et de haute qualité est très exigeante en ressources. La performance décline fortement si les exemples étiquetés sont rares, rendant ce paradigme fragile et souvent économiquement insoutenable pour des jeux de données massifs et évolutifs.
2. Apprentissage non supervisé (ANS) : découverte de structures latentes
L'ANS opère exclusivement sur des données non étiquetées, $D = \{X_1, X_2, ..., X_n\}$. Son objectif est d'inférer des structures intrinsèques, des distributions de probabilité sous-jacentes, des densités ou des représentations significatives au sein du manifolde de données. Ses applications clés incluent le regroupement (clustering), l'apprentissage de variétés (manifold learning) et l'apprentissage de représentations. L'ANS est particulièrement efficace pour le prétraitement et l'ingénierie de caractéristiques, fournissant des aperçus précieux sans dépendre de l'entrée humaine externe.
Étant donné : $D_L$ : Données étiquetées. $D_U$ : Données non étiquetées. $\mathcal{L}_{SL}$ : Fonction de perte supervisée. $\mathcal{L}_{Consistency}$ : Perte imposant une lisibilité des prédictions sur $D_U$.
La forme conceptuelle de la perte totale ASS est une somme pondérée des deux composantes : $\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$. Le scalaire $\lambda$ contrôle le compromis entre la fidélité aux étiquettes et la dépendance à la structure.